Abe Vos
April 2022
Korte terugblik
Reinforcement Learning
Eigenschappen
De voorgaande voorbeelden delen een aantal eigenschappen.
Er is sprake van interactie tussen een beslissing makende agent en de omgeving.
Deze agent probeert een gegeven doel te bereiken.
De agent doet dit allemaal ondanks onzekerheid over deze omgeving.
Agent en Interactie
Doel
CoastRunners
Onzekerheid
Randomness
Stochastische variabele
Discreet en continu
random.randint()random.random()Kanswaardes
Dobbelsteen
| \(x\) | \(p(X=x)\) |
|---|---|
| 1 | \(\frac{1}{6}\) |
| 2 | \(\frac{1}{6}\) |
| 3 | \(\frac{1}{6}\) |
| 4 | \(\frac{1}{6}\) |
| 5 | \(\frac{1}{6}\) |
| 6 | \(\frac{1}{6}\) |
Normaalverdeling
Steekproeven/sampling
random.random() geeft een steekproef
random.randint(1,7)random.gauss(mu, sigma)Simultane kansverdeling
Voorwaardelijke kansverdeling
Onafhankelijke gebeurtenissen
Eigenschappen van stochasten
Verwachte waarde
Variantie
Elementen van de agent
Beleid
Beloning
Waarde-functie
Finite Markov Decision Process
Discount factor
Markov eigenschap
Optimalisatie objectief
Wat leren we nou eigenlijk?
Aanpakken van RL
Policy Iteration
Policy Evaluation benodigdheden
Policy Evaluation
Gridworld
Policy Improvement
Policy Iteration
Value Iteration
Tekortkomingen
Voorbeeld: Bereken \(\pi\)
Monte Carlo Integration
Schat \(\pi\)
Monte Carlo Methodes
Monte Carlo voor RL
Offline leren
Monte Carlo Prediction
Voor elke staat \(S_t\)
Github
Eerste opdracht
Vragen/ziekmeldingen/etc.